回帰分析の信頼区間-01

 

回帰分析の信頼空間,について,まとめてみました.

こちらなどのサイトにあるように,

 直線回帰において,近似曲線だけでなく両側に放物線のような点線(もしくは色付け)

がよく論文などに見られます.

 たぶん,近似曲線のもっともらしい範囲を示しているのだな?

と思っていましたが,なかなか理解できませんでした.

今回,区間推定,検定などを勉強して,なんとか理解できそうになったのでまとめてみました.

主に,こちら,のサイトを参考にさせていただきました(a,bをうちのHPに合わせて逆にしています).

こちら,のサイトも参考にさせていただきました(Covで挫折しましたが..

いくつかのトピックをHPにアップしましたが,簡単にまとめます.

 

まずは,データを直線近似します.その式は,

\( \Large \displaystyle y = ax+b \)

となります.

ここで,
 X軸のデータは誤差を含まない
 Y軸のデータに誤差を含む
が前提となります.つまり,

\( \Large \displaystyle y_i = ax_i+b + e_i \)

となります.この,a,bは真の値なので実際にはわかりません,推定するしかないのです.

これらからの推定値と実際の値の残差を,

\( \Large \displaystyle \varepsilon_i = y_i - \hat{y}_i \)

とすると,その二乗和は,

\( \Large \displaystyle S_{ \varepsilon \varepsilon} = \sum_{i=1}^n \varepsilon_i^2
= \sum_{i=1}^n ( y_i - \hat{y}_i)^2
= \sum_{i=1}^n ( y_i - \hat{a}x_i+\hat{b})^2 \)

この残差の二乗和が最小になる推定される二つのパラメータ,\( \Large \hat{a}, \hat{b} \)から,

\( \Large \displaystyle \hat{y}(x) = \hat{a}x+\hat{b} \)

を得ることができます.

また,ここ,から,

\( \Large \displaystyle \overline{ y} - b - a \displaystyle \overline{x} = 0 \)

\( \Large \displaystyle \overline{ y} = a \displaystyle \overline{x} +b \)

です.

 

推定値

これらのパラメータの導き出し方は,ここここ,にまとめてあります.

\( \Large \hat{a} = \displaystyle \frac{ S_{xy} }{ S_{xx}} \)

\( \Large \hat{b} = \displaystyle \bar{y} -\frac{ S_{xy} }{ S_{xx}} \bar{x} \)

さらに,

\( \Large \displaystyle \bar{y} = \hat{a} \bar{x} + \hat{b} \)

の関係を導き出すことができます.ここで,

\( \Large \displaystyle S_{xx} = \displaystyle \sum_{i=1}^n (x_i - \bar{x})^2 = n \left\{ \overline{x^2} - \left( \bar{x} \right)^2 \right\} \)

です.

 

分散

\( \Large \displaystyle \hat{a}, \ \hat{b} \)の分散は,ここ,から,

\( \Large \displaystyle V \left[ \hat{a} \right] = \sigma_a^2 = \displaystyle \frac{ \sigma_y^2}{S_{xx}} \)

\( \Large \displaystyle V \left[ \hat{b} \right] =\sigma_b^2 = \sigma_y^2 \frac{ \overline{ x^2}}{ S_{xx}} =\sigma_y^2 \left\{ \frac{1}{n}+ \frac{\left( \bar{x} \right)^2 }{S_{xx}} \right\} \)

ここで,

\( \Large \displaystyle \sigma_y^2 = \sum_{i=1}^N ( y_i - \hat{y})^2 \)

です.

 

\( \Large \displaystyle \hat{y} \)の分散

推定したパラメータで求めたyの値がどの程度分散を持つかというと,

\( \Large \displaystyle \hat{y} = \hat{a}x+\hat{b} \)

\( \Large \displaystyle \overline{ y} = a \displaystyle \overline{x} +b \)

から,

\( \Large \displaystyle \hat{y} = \overline{ y} +\hat{b} ( x - \bar{x} )\)

となります,したがって,分散は,

\( \Large \displaystyle V\left[\hat{y}\right] = V\left[\overline{ y}\right] +V\left[\hat{a} ( x - \bar{x} )\right]\)

となります.

第一項は,中心極限定理から,

\( \Large \displaystyle V\left[\overline{ y}\right] = \frac{ \sigma_y^2}{n} \)

となります.

第二項は,

\( \Large \displaystyle V\left[\hat{a} ( x - \bar{x} )\right] = ( x - \bar{x} )^2 V\left[\hat{a} \right] = \displaystyle ( x - \bar{x} )^2 \frac{ \sigma_y^2}{S_{xx}} \)

となるので,

\( \Large \displaystyle V\left[\hat{y}\right] = \frac{ \sigma_y^2}{n} + \displaystyle ( x - \bar{x} )^2 \frac{ \sigma_y^2}{S_{xx}}
= \left[ \frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] \sigma_y^2 \)

 

yの分散

\( \Large \displaystyle \varepsilon_i = y_i - \hat{y}_i \)

から,

\( \Large \displaystyle y_i = \hat{y}_i + \varepsilon_i \)

となります,この分散値は,

\( \Large \displaystyle V\left[ y \right] = V\left[\hat{ y}\right] +V\left[ \varepsilon \right]\)

第一項は,上の計算から,

\( \Large \displaystyle V\left[\hat{y}\right] = \left[ \frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] \sigma_y^2 \)

第二項は,yの残差の分散なので,

\( \Large \displaystyle V\left[ \varepsilon \right] =\sigma_y^2 \)

となりますので,

\( \Large \displaystyle V\left[ y \right] = \left[ \frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] \sigma_y^2 + \sigma_y^2
= \left[1+ \frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] \sigma_y^2\)

となります.

 

それぞれ,

\( \Large \displaystyle \hat{y} \)の分散

yの分散

を求めることができました.しかし,実際には,\( \Large \displaystyle \sigma_y^2 \)は求めることができないので不偏分散を使います.

その計算は,ここ(長いですが),にあり,

\(\Large \displaystyle \sigma^2 \rightarrow \displaystyle \frac{ E \left[ \displaystyle \sum_{i=1}^n \varepsilon_i^2 \right]}{n-2} = s^2 = Ve \)

となるので,

\( \Large \displaystyle \hat{y} \)の分散

\( \Large \displaystyle V\left[\hat{y}\right] = \left[ \frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] \sigma_y^2 = \left[ \frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] Ve \)

yの分散

\( \Large \displaystyle V\left[ y \right] = \left[1+ \frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] \sigma_y^2 = \left[1+ \frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] Ve\)

を計算すればいいことになります.

 

つまり,\( \Large \displaystyle \hat{y} \)の推定値は,

平均:\( \Large \displaystyle \hat{a}x+\hat{b} \)

分散:\( \Large \displaystyle \left[ \frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] Ve \)

の正規分布に従うことになります.

 

また,yの推定値は,

平均:\( \Large \displaystyle \hat{a}x+\hat{b} \)

分散:\( \Large \displaystyle \left[ 1+\frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] Ve \)

の正規分布に従うことになります.

 

こうなると,勉強してきたt検定が利用できます.

注意すべきは,

 xによって分散値が変化する

ことと,

 t検定における自由度はn-2となる

ことです.なぜn-2になるかは,ここでは,

 二つのパラメータを求めるので自由度は2つ減る

と考えましょう(安易かもしれませんが...)

 

信頼区間

信頼区間は,ここ,にあるように,

\(\Large \displaystyle - t_{\alpha/2} (n-1) \hspace{12 pt}\leq \hspace{12 pt} \frac{\mu - \bar{x}}{ \sqrt{\frac{\color{red}{s}^2}{n}}} \hspace{12 pt} \leq \hspace{12 pt} t_{\alpha/2} (n-1) \)

でしたので,\( \Large \displaystyle \hat{y} \)の場合は,

\(\Large \displaystyle - t_{\alpha/2} (n-1) \hspace{12 pt}\leq \hspace{12 pt} \frac{\hat{a}x+\hat{b}}{ \sqrt{\left[ \frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] Ve}} \hspace{12 pt} \leq \hspace{12 pt} t_{\alpha/2} (n-1) \)

書き換えると,

\(\Large \displaystyle \hat{a}x+\hat{b} \hspace{12 pt} \pm \hspace{12 pt} t_{\alpha/2} (n-1) \cdot \sqrt{\left[ \frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] Ve} \)

yの場合は,

\(\Large \displaystyle - t_{\alpha/2} (n-1) \hspace{12 pt}\leq \hspace{12 pt} \frac{\hat{a}x+\hat{b}}{ \sqrt{\left[ 1 + \frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] Ve}} \hspace{12 pt} \leq \hspace{12 pt} t_{\alpha/2} (n-1) \)

書き換えると,

\(\Large \displaystyle \hat{a}x+\hat{b} \hspace{12 pt} \pm \hspace{12 pt} t_{\alpha/2} (n-1) \cdot \sqrt{\left[ 1 + \frac{ 1}{n} + \frac{ ( x - \bar{x} )^2}{S_{xx}} \right] Ve} \)

の線を引けばいいことになります.

 

では,実際にデータから回帰直線の信頼区間を計算していきましょう.

 

 

tr